跳转至

PacBio HiFi 测序原理与应用


一句话说明

PacBio HiFi 是"又长又准"的测序技术——DNA 片段做成环形,聚合酶绕着圈读好多遍,把每遍的错误平均掉,最终得到 10-20kb 的高精度长读序列(准确率 >99.9%)。


核心知识点

要点1:HiFi 的技术原理

  • PacBio 的 SMRT 测序:单分子实时测序,聚合酶固定在零模波导孔(ZMW)底部
  • DNA 模板做成 SMRTbell(哑铃形环状结构):插入片段两端加接头形成闭合环
  • 聚合酶沿模板持续合成,每次通过(pass)就是一次亚读(subread)
  • HiFi 的关键:插入片段 ~15-20kb,聚合酶绕多圈(≥3 passes),取共识序列(CCS)
  • CCS = Circular Consensus Sequence → 准确率从单 pass 的 ~85% 提升到 >99.9%(Q30+)

要点2:HiFi vs CLR vs ONT

特征HiFi (CCS)CLR (连续长读)ONT
读长10-25 kb10-100+ kb1-100+ kb
准确率>99.9% (Q30+)~85-90%~99%(R10.4+)
通量~30 Gb/cell~50 Gb/cell~50-100 Gb/cell
均一性低 GC 偏好低 GC 偏好极低 GC 偏好
表观修饰可检测可检测可检测
成本低-中

要点3:核心应用场景

  • 从头组装:HiFi 是当前最佳基因组组装数据源(T2T 基因组使用)
  • 结构变异检测:长读长精确识别 SV(50bp-Mb 级)
  • 单倍型分装:直接 phase 产生单倍型组装
  • 全长转录本:Iso-Seq 模式测全长 mRNA
  • 表观修饰检测:聚合酶动力学信号检测 5mC、6mA 等
  • HLA 分型:精确解析高度多态的 MHC 区域

要点4:Revio 平台(2023+)

  • PacBio 最新平台,取代 Sequel II/IIe
  • 4 个 SMRT Cell 同时运行,通量大幅提升
  • 每个 SMRT Cell ~100-120 Gb HiFi 数据(SPRQ 化学,约 30-40× 人类基因组)
  • 成本下降约 3 倍

实战代码

# ===== PacBio HiFi 数据处理流程 =====

# 1. 生成 HiFi reads(从原始 subreads 生成 CCS)
# 使用 PacBio 的 ccs 工具(SMRT Link 套件)
ccs input.subreads.bam output.hifi.bam \
    --min-rq 0.99 \       # 最低质量阈值 Q20(99%)
    --min-passes 3 \       # 至少 3 次完整 pass
    --num-threads 16

# 注意:Revio 平台直接输出 HiFi reads,无需此步骤

# 2. 查看 HiFi reads 统计
# 平均读长、总量、质量分布
python -c "
import pysam
bam = pysam.AlignmentFile('output.hifi.bam', 'rb', check_sq=False)
lengths = []
quals = []
for read in bam:
    lengths.append(read.query_length)
    quals.append(read.get_tag('rq'))  # 读质量
bam.close()
import numpy as np
print(f'HiFi reads 数: {len(lengths)}')
print(f'平均读长: {np.mean(lengths):.0f} bp')
print(f'中位读长: {np.median(lengths):.0f} bp')
print(f'N50 读长: {sorted(lengths, reverse=True)[len(lengths)//2]:.0f} bp')
print(f'平均质量: {np.mean(quals):.4f}')
print(f'总碱基数: {sum(lengths)/1e9:.1f} Gb')
"

# 3. 基因组比对
# 使用 minimap2(长读比对标准工具)
# -a: 输出 SAM 格式
# -x map-hifi: HiFi 专用预设参数
minimap2 -a -x map-hifi -t 16 \
    ref_genome.fa output.hifi.bam | \
    samtools sort -@ 8 -o aligned.sorted.bam
samtools index aligned.sorted.bam

# 4. 基因组从头组装(使用 hifiasm)
# hifiasm 是 HiFi 数据最佳组装工具
hifiasm -o assembly \
    -t 32 \                # 线程数
    output.hifi.fastq.gz   # HiFi reads

# 输出文件:
# assembly.bp.p_ctg.gfa → 主要 contigs(GFA 格式)
# assembly.bp.hap1.p_ctg.gfa → 单倍型1
# assembly.bp.hap2.p_ctg.gfa → 单倍型2

# GFA 转 FASTA
awk '/^S/{print ">"$2; print $3}' \
    assembly.bp.p_ctg.gfa > assembly.p_ctg.fa

# 5. 组装质量评估
# QUAST:基本统计
quast assembly.p_ctg.fa -r ref_genome.fa \
    -o quast_output/ -t 8

# BUSCO:基因完整性评估
busco -i assembly.p_ctg.fa -l mammalia_odb10 \
    -o busco_output -m genome -c 8

面试常问点

★ HiFi 为什么能做到又长又准?

参考答案:HiFi 的核心是 CCS(环形共识序列)技术。DNA 插入片段被做成环形的 SMRTbell 模板,聚合酶沿着这个环多次通过(至少 3 次),每次独立地读一遍。虽然单次通过的错误率约 10-15%,但因为错误是随机的,多次通过取共识后错误率指数下降。类比:一个人说话你可能听错,但让他重复说三遍以上,你几乎不可能每次都听错同一个字。

★ HiFi 和 ONT 怎么选?

参考答案:两者各有优势。HiFi 准确率更高(Q30+ vs Q20+),特别适合变异检测和从头组装,是目前 T2T 级别基因组组装的首选。ONT 读长可以更长(超长模式可达 Mb 级),成本更低,设备小巧便携,适合现场测序和需要超长读长的场景(如复杂重复区域)。很多项目两者结合使用——HiFi 做主要组装,ONT 超长 reads 辅助跨越重复区域。


速查卡片

问题一句话答案
HiFi 全称High Fidelity(CCS = Circular Consensus Sequence)
典型读长10-25 kb
准确率>99.9%(Q30+)
最少 pass 数3 次
最新平台Revio(2023+)
最佳组装工具hifiasm
比对工具minimap2 -x map-hifi
核心优势长读长 + 高准确率的唯一兼得方案
每 SMRT Cell 通量~100-120 Gb(Revio + SPRQ)